Введение в программирование на Triton: переход от потоков к экземплярам программы

В Triton основной единицей выполнения является не скалярный поток CUDA, а экземпляр программы. Это абстракция блока потоков GPU, где один экземпляр одновременно обрабатывает векторизованный «блок» элементов.

1. Идентичность экземпляра программы

Каждая единица выполнения получает свою идентификацию через pid = tl.program_id(axis=0). Представьте себе грузовую погрузочную машину на складе (экземпляр программы), которая поднимает поддон (блок) из 128 ящиков, в отличие от одного работника (потока CUDA), который поднимает один ящик.

2. Triton против тензоров PyTorch

Понимание семантического разрыва имеет решающее значение для управления памятью:

Тензор PyTorch: Объект на стороне хоста на языке Python, обёртка для хранения видеопамяти (VRAM), шагов и метаданных.
Тензор Triton: Объект уровня компилятора, представляющий значения или указатели, находящиеся в регистрах или SRAM.

Вид тензора PyTorch
Объект на языке Python, указывающий на непрерывную глобальную память.

Вид тензора Triton
Двумерный/одномерный блок данных внутри регистров компилятора.

3. Характеристика SPMD

Triton следует модели единой программы, множественных данных (SPMD) выполнения. Каждый экземпляр программы выполняет точно такой же код. Разветвление происходит только тогда, когда логика использует pid для вычисления конкретных смещений памяти.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary identifier for a Triton execution unit?

threadIdx.x

tl.program_id(axis=0)

tl.block_idx()

torch.get_id()

QUESTION 2

True or False: A Triton tensor is a Python object that stores metadata like strides on the host CPU.

True

False

QUESTION 3

What is the result of 'forgetting that all program instances execute the same kernel body'?

The compiler will automatically distribute tasks.

Race conditions or overwriting memory if pid-based logic is missing.

The kernel will fail to compile due to a syntax error.

Execution time will double.

QUESTION 4

In the forklift analogy, what does the 'Aisle Number' represent?

The BLOCK_SIZE

The program_id (pid)

The GPU Driver version

The Pointer address

QUESTION 5

Why is the Triton model considered 'Vectorized' compared to CUDA?

It uses Python lists.

One Program Instance handles a block of elements, not just one scalar element.

It only works with 2D matrices.

It runs on the CPU's SIMD units.